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요 약 


기 존 의 데이터 마이닝 방 법 들은 공 통 적 으로 최 소 지 지 도 (01010141 50000 값 의 변 경 에 의한 빈 발 항 목 
탐 사 의 비 효 율 성 , 불필요한 연 관 규 칙 의 생 성 으로 인한 불 편 성 , 그리고 새로운 트 랜 잭 션 을 추 가 하게 되면 이전 
탐 사 과 정 에 서 발 견 한 결 과 를 재 활 용 하기 어렵다는 문 제 점 들을 가지고 있다. 본 연 구 에서는 이러한 문 제 점 들 
을 해결할 수 있는 6284-1(6 방 법 을 제 안 한 다. 68\[- 때 (6 방 법 은 최 소 지지도 값 을 이 용 하 지 만 트 랜 잭 션 내 의 
각 항 목 에 대하여 다른 항 목 과 의 직 접 적 ㆍ 간 접 적 인 관 련 성 을 파악한 후 빈 발 항 목 을 생 성 한 다. 또한 관심 
있는 항 목 에 대해서만 빈 발 항 목 을 구 성 할 수 있기 때문에 기 존 의 방 법 에서 발 생 하는 비 효 율 성 을 최 소 화 할 
수 있다. 


스 지 6\ 16000 107 트 11016007 (4606080108 아 76006 파 
16008 65 18) 10 10810 110108 


나 \0409-06' 800 Ｌ ㄴ 66 (\/809 가 1\4119 、 


286116601 


116 000010100 ㅁ 01010162705 10400 170 0416 028 0010108 10 ㅁ 611008 001160[ 10 456 1876 10110\108 27 이 16005. 1756: 
팔 16 1061160076 10 56870108 107 1760460( 16605 046 10 이 18008108 01 001010021 64000 파 7810468. 56000: 트 
19 100 83032607016 10 000010208 이 40486【41 7013000 ㅁ 1244166. 4170: 타 16 7677 01[010411 160 76-1 ㅁ 456 076060108 
1769141【6 \1116 800108 ㅁ 6\ 1 ㅠ 8705800008. 

10 1416 0806, \6 100 ㅁ 00406 8 06\ 106000 ㅁ 80160 46 5041-4(6(566160076 『21[6670 14010108 145108 11600 
표 13000 (77321), 14120[ 16 065180 ㅁ 60 10 50176 81206 119660 0 ㅁ 01016008. 8【761-41(; 1064100 0168666 8 1176014600【 
166008 48108 101010181 804000 다 ?1810468 아 101060 159 10768101880108 01160 0 1001760 1613007 이 211 16008 2 
ㅠ 80580002 ㅁ . 

떠 0060?76, 416 ㅁ 6\ 10610000 0870 00101102126 10610101600 0 6×150208 1060700 65 000 ㅁ 507401010@ 116014614[ 16008 
14910 02017 146 16005 다 \6 2076 1141(67066660. 


표 65 \0608: 10262 17010108, 1760460[ 1160048, 12000 74168, 70010172081 502000 다 


1. 서 론 


기 업 들이 경 쟁 력 을 강 화 하기 위해서는 축 적 된 데 
이 터 를 분 석 하고 정 보 와 지 식 을 획 득 하는 능 력 을 보 
유 해 야 한다. 그러나 1990 년 대 에는 데 이 터 를 분 석 하 
여 정 보 와 지 식 을 획 득 하는 능 력 이 데 이 터 를 획 득 하 


” 건 양 대 학교 학부 부교수 
 ( 주 )800 시 스 템 개 발 실 부장 


고 저 장 하는 능 력 에 훨씬 미 달 하는 ' 데 이터 과 잉 문제 
(2818 에마 001607' 가 발 생 하 였 다 [8]. 이러한 데이 
터 과 잉 문 제 는 방대한 양 의 데 이 터 에 내 재 된 정 보 와 
지 식 을 발 견 하는 능 력 의 개 선 에 의해서 해 결 될 수 
있는데, 데이터 마 이 닝 (0363 0 ㅁ 040108) 은 바로 이런 요 
구 사 항 을 충 족 시키는 새로운 정보 기 술 의 활 용 방법 
이다. 데이터 마 이 닝 은 대 량 의 실제 데 이 터 로부터 이 
전에 잘 알 려 지 지 는 않았지만, 묵 시 적 이고 잠 재 적 으 
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로 유용한 정 보 를 추 출 하 는 작 업 이다. 

최근 수 년 동안 다양한 분 야 에서 데이터 마 이 닝 에 
대한 연 구 가 활 발 하게 진 행 되어 오고 있다. 그 동안 
제 안 된 다양한 데이터 마이닝 기 법 들은 탐 사 하 고자 
하는 빈 발 항 목 ( ㅠ 604604162080[) 의 대 상 에 따라 빈발 
패턴 마 이 닝 (\76046 마 21667 1410108) 방 법 과 010860 
패턴 마 이 닝 (10660 『81[6770 1410108) 방 법 으로 분류 
된다. 빈 발 패턴 마이닝 방 법 들 [2.3,7) 은 모든 가능한 
빈 발 항 목 을 생 성 하는 형 태 이고, (10660 패턴 마이닝 
방 법 들 [4.6] 은 가능한 모든 빈 발 항 목 들 중에서 00860 
빈 발 항 목 만을 생 성 하는 형 태 이 다 [1]. 기 존 의 데이터 
마이닝 방 법 들은 공 통 적 으로 최 소 지 지 도 (0101721 
80000) 값 의 변 경 에 의한 빈 발 항목 탐 사 의 비효율 
성 , 불필요한 연 관 규 칙 의 생 성 으로 인한 불 편 성 , 그 
리고 새로운 트 랜 잭 션 을 추 가 하 게 되면 이전 탐 사 과 
정 에서 발 견 한 결 과 를 재 활 용 하기 어렵다는 문제점 
들을 가지고 있다. 

따라서 본 연 구 의 2 장 에서는 데이터 마 이 닝 의 기 
본 정 의 들 과 기존 연 구 들의 문 제 점 을 고 찰 하고, 3 장 
에서는 이러한 문 제 점 들 을 해결할 수 있는 5『14- 
120(;(56160076 20670 1110108 48108 11160 트 613002 ㅁ 
( ㅠ 800) 방 법 을 제 안 한 다 . 61144-18( 방 법 은 최 소 지 
지도 값 을 이 용 하 지만 트 랜 잭 션 내의 각 항 목 에 대하 
여 다른 항 목 과 의 직 접 적 ㆍ 간 접 적 인 관 련 성 올 파악 
한 후 빈 발 항 목 을 생 성 한다. 마 지 막 으로 4 장 에서는 
제안한 60*4-1800 방 법 의 특징 및 알 고 리 즘 에 대하 
여 설 명 한 다. 


2. 개념 정의 및 관 련 연구 


2.1 개념 정의 


1=11, 2, …, 1) 를 항 목 (166200) 들 의 집합, 1108(7 ㄷ 30- 
880800 108\00856) 를 개의 트 랜 잭 션 들의 집 합 이라 
하자. 각 트랜잭션 는 1 의 부 분 집 합 (1 드 1) 이 고, 고 
유의 트랜잭션 번 호 (110) 를 갖는다. 


[정의 1] [의 집 합 (00\67 560[ 의 부 분 집합 를 
항 목 집 합 (60086 또는 ㅁ 2346@7) 이 라고 하고, 특별히 
|1=\ 인 ※ 를 - 항 목 집 합 이라고 한다. 

[정의 2] 항 목 집합 ※ 가 ※ 드 1 이고 임 의 의 트 랜 잭 
션 에 대해서 ※ 드 ㅠ 이면, 트랜잭션 는 항 목 집합 
※ 를 지 지 한 다. 항 목 집 합 ※ 의 지 지 도 는 7108 에 서 포 


를 지 지 하 는 트 랜 잭 션 들의 개 수 이 며 , 540[×] 로 표기 
한다. 항 목 집합 ※ 의 최 소 지 지 도 는 사 용 자 에 의해서 
임 의 적 으로 설 정 되는 값 이며, 940-017 으 로 표 기 한 다. 

[정의 3] 항 목 집 합 ※ 의 지 지 도 가 최 소 지 지 도 보다 
크면 즉 , 940[×]>7010-500 일 경우 항 목 집 합 ※ 를 
빈 발 항 목 (\04604[ 1(6086[) 이 라 한다. 

[정의 4] 항 목 집합 ※, 에 대해, 규 칙 은 ":※%-> ㅜ " 
형 식 의 함 축 이며, ×,\ 으 1 이고, ※(1?=0 이 고 ?※=0 
이다. 이때, ※ 를 규 칙 의 조 건 부 (321[(6060601[), * 를 결 
과 부 (60 ㅁ 5604600) 라 고 한다. 

[정의 5 7108 에 있는 규칙 :※-* 의 지 지 도 는 
940[× ㄴ ] 로 정 의 한 다. 규칙 \:※%-*\ 의 신 뢰 도 는 
000118] 로 표 기 하 며 , ※ 를 지 지 하 는 트랜잭션 에 대 
하여 를 지 지 할 조건부 확 률 로 정 의 한 다 . 즉 , 00 따 
[ 끄 =0( 도 ^ ㅅ %)/0(%)=6001% 니 도 ]/90401] 이다. 규칙 묘 
의 신 뢰 도 가 최 소 신 뢰 도 보다 같 거나 크면 즉 , 000 
[8]>6070[-007 이면 규칙 을 연 관 규 칙 이라 한다. 
규칙 의 최소 신 뢰 도 는 사 용 자 에 의해서 임 의 적 으 
로 설 정 되 는 값 이며, 600[-7 피 으로 표 기 한다. 


일 반 적 으로, 연 관 규 칙 들 은 빈 발 항목 탐 색 단 계 와 
탐 색 된 빈 발 항 목 으 로부터 연 관 규 칙 을 생 성 하는 두 
단계 과 정 을 거쳐 얻 어 진 다. 빈 발 항목 탐 색 단 계 에 서 
는 미리 결정된 2 ㅁ 10-502 않 이상의 트랜잭션 지지도 
를 갖는 항 목 집 합 들의 모든 부분 집 합 들 이 빈 발 항목 
이 된다. 따라서 잠 재 적 인 빈 발 항 목 의 수 는 모든 항 
목 들의 명 집 합 의 크 기 와 같다. 연 관 규칙 생 성 단 계 에 
서는 모든 빈 발 항목 집합 Ｌ 에 대해서 Ｌ 의 공 집 합 이 
아닌 부 분 집 합 ㅅ 를 찾는다. 탐 색 된 부 분 집 합 에 대 
하여, 9420[&] 에 대한 642[Ｌ] 의 비 율 이 적어도 최 소 신 
뢰 도 이 상 이 면 (6040[1] / 54214] >7010-000[), & ㅡ (Ｌ- 
쇼 ) 형 태 의 연 관 규 칙 을 생 성 한 다. 


[ 예 ] < 표 1> 의 7108 에 대해 010-540=2, 1010- 
000【=50% 라고 할 때, 빈 발 항 목 '600『' 에 대해 항목 


표 1. 트랜잭션 데이터베이스 1068 


트 랜 잭 션 대의 항 목 들 
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'" 의 경우 지 지 도 는 4 이 고 빈 발 항 목 '600『' 의 부 분 집 
합 이다. 이 경우 규칙 “ 보 :0- ㅎ 80” 의 신 뢰 도 는 940 
[8001]/900[01]=2/4>508% 이므로 규칙 Ｌ 은 연 관 규칙 
이 된다. 


2.2 관련 연구 


7008 에 서 빈 발 항 목 을 생 성 하는 과 정 은 데이터 마 
이 닝 에서 핵 심 적 인 기 술 로, 지 금 까지 다양한 형 태 의 
빈 발 항 목 탐 사 방 법 들 이 제안, 연 구 되어 왔는데, 탐사 
결 과 로 생 성 되는 빈 발 항 목 의 범 위 에 따라 크게 빈발 
패턴 마 이 닝 (@※6004604[ 08677 70101208) 과 10500 패턴 
마 이 닝 (010660 08060 1010108) 로 구분할 수 있다. 


2.2.1 빈 발 패턴 마이닝 


빈 발 패턴 마 이 닝 은 트 랜 잭 션 내의 모든 빈 발 항 목 
을 찾아내는 방 법 으로 후 보 집 합 을 이용하는 40000 
방 법 과 1『- 트 리 를 이용한 72-810\ ㅁ 1 방 법 이 있다. 


1) 40002 방법 : ^ ㅅ 000 방 법 은 16761-\156 탐 색 ' 
형 태 의 반복적 탐 사 방 법 을 사 용 한 다. 첫 단 계 에서 1- 
빈 발 항 목 집합 Ｌ[ 을 구 성 한 다. Ｌ; 를 생 성 하 기 위해서 
내의 모든 항 목 을 조 인 (1010) 하 여 후 보 집 합 (,) 을 
생 성 한 다. 이 후 보 집 합 에 서 0 ㅠ 2 ㅁ -6802 보 다 낮은 항 목 과 
불필요한 항 목 들을 제 거 하여 Ｌ> 를 생 성 한다. 그리고 
같은 방 법 으로 Ｌ> 를 이 용 하 여 Ｌ8 를 생 성 한 다. 이러한 
반 복 적 인 수 행 을 더 이상의 빈 발 항 목 이 생 성 되지 않 
을 때 까지 수 행 한 다. 이 방 법 의 단 점 은 길 이 가 큰 항 
목 집 합 을 탐 사 하기 위해서 반 복 적 으로 1178 를 검사 
해야 하기 때문에 후 보 집 합 을 처 리 하는데 많은 오버 
혜 드가 발 생 한 다는 것이다. 


2) 12-0670\04 방법 : 82-@70\41 방 법 은 0 ㅁ ㅁ 61% 
트리 구 조 를 적용한 17- 트 리 (1760461( 0806770 ㅁ ㅇ 6) 
를 이용한다. 8『2- 트 리의 노 드 는 1- 빈 발 항 목 으 로 만 
구 성 되며, 노 드 구 성은 빈 도 수 가 높은 노 드 가 낮은 노 
드 보 다 공 유 기 회 를 더 많이 갖도록 정 렬 된 다. 즉 , 11203 
를 검 사 하여 각 트랜잭션 내의 항목 중에서 2 ㅁ 21 ㅁ -502 
이 하 의 지 지 도 를 갖는 항 목 들을 제 거 하고, 항 목 의 빈 
발 횟 수 가 많은 순 서 로 트 랜 잭 션 들 을 재 구 성 하여 7『- 
트 리 를 구 성 한 다. 빈 발 항 목 을 검 사 하 기 위해서는 분 
할 기 반 (08 ㅁ 1040 ㅁ - ㅁ 8560) 의 분할 후 정 복 (010106 800 
0000460) 방 법 을 사 용 한 다. 이 방 법 은 탐 사 범 위 인 조 
건 부 패 턴 기 저 (60001040021 20806 ㄷ ㅁ 1 ㅁ 850) 의 범 위 를 


줄여 준 다 .『[-970\0 방 법 은 최 소 지 지 도 에 의해 탐 
사 시 점 에서 빈 발 항 목 들 이 제 거 하 기 때문에 최 소 지 
지 도 가 변 경 되 거나 새로운 트 랜 잭 션 이 추 가 되면 전 
체 빈 발 항목 탐 사 과 정 을 다시 수 행 해 야 한다는 단점 
이 있다. 


2.2.2 <210560 패턴 마이닝 


앞에서 설명한 빈 발 패 턴 마이닝 방 법 은 매우 많은 
수 의 중 복 된 빈 발 항 목 을 생 성 하는 단 점 이 있다. 01- 
0860 패턴 마 이 닝 은 중 복 성 이 제 거 된 항 목 집 합 만을 
생 성 하 고, 보다 효 율 적 으로 연 관 규 칙 을 생 성 할 수 있 
는 방 법 으로 ㅅ -(2056, 04180770, (1 ㅁ .088 방법 둥이 
있다. 


1) &-1056 방법 : 이 방 법 은 40002 방 법 의 변형 
형 태 로 40000 방 법 을 적 용 하여 후 보 집 합 을 생 성 하 
고 이를 이 용 하 여 빈 발 항 목 들 을 생 성 한 다. 그리고 해 
당 항 목 을 포 함 하고 있는 모든 트 랜 잭 션 의 교 집 합 을 
수 행 하 여 빈발 10560 항 목 집 합 을 생 성 한다. 이 방법 
은 여전히 40002 방 법 의 문 제 점 을 포 함 한 다 . 


2) (0132 방법 : 이 방 법 은 7102 를 수 직 데이타 형 
식 (760 ㅁ 810681 00[8 10 ㅁ ㅁ 80() 으 로 변 환 하여 활 용 한다. 즉 , 
각 항 목 들은 트랜잭션 식 별 자 (00) 들 의 집합과 연관 
된다. 21802 방 법 은 첫 단 계 에 서 1- 빈 발 항 목 을 탐사 
하여 해당 항 목 을 가 지 (673001) 로 갖는 트 리 를 구성 
한다. 그리고 다음 단 계 에 서 항 목 집 합 의 구 성 을 위해 
동일 레 벨 의 항 목 들 을 조 합 한다. 그리고 이러한 과정 
을 각 가 지 에 대해 수 행 하여 전체 빈발 00660 항 목 집 


합 을 선 정 한 다. 이 방 법 의 문 제 점 은 트랜잭션 식별자 


집 합 (40-66) 의 교 집 합 을 반 복 적 으로 계 산 하면서 많 
은 오 버 헤 드 가 발 생 한 다는 점 이 다 . 


3) 01.088Ｌ 방법 : 이 방 법 은 첫 단 계 에 서 11078 를 
검 사 하여 1- 빈 발 항 목 의 집합 『-1166( ㅁ 60460 16607 
116[) 를 생 성 하 는데, 【-116[ 의 구 성 은 지 지 도 가 높은 항 
목 순 으로 정 렬 된 다. 그리고 다음 단 계 에 서 +-16( 를 
이 용 하 여 탐 사 범 위 를 분 할 한 후 각 영 역 에 대하여 
빈발 00560 항 목 집 합 의 부 분 집 합 을 찾는다. 빈발 
이 0860 항 목 집 합의 부 분 집 합 은 해당 조건부 패턴 기 
저 (00001040081 208467 ㅁ ㅁ 0850) 를 재 귀 적 으 로 구 성 함으 
로써 탐 사 할 수 있다. 

표 2 는 표 1 의 1128 에 대해 각 방 법 의 결 과 로 얻어 
지는 빈 발 항목 생 성 결 과 를 나타낸다. 
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표 2. 각 방 법 의 빈 발 항목 생성 결 과 ( 표 1 이용) 


생 성 된 전체 빈 발 항 목 (항목: 지지도) 
{2:3},{04},{0:4}),{6:4}, 탱 4}{16.002), 
{2,.0:2),{2.6:2),{2.2},16.0:2},{6.6:3}, 
{64},{1012}{163}{40.0:2},{14.0682}, 
{12.0.62),{(6062),(663},{24.0.0.2} 
담 8.0:2),(68.0:2),(802},(@602), 
602},{6.62}),(60: 2),{102}, 66222), 


브 2-@70\ 


{6.8:2},(68:2},62132),(23),( 다 604}, 
16.0:3),604},{614), 대 63},{64},(64} 


1213},{664){123.0.0.62},{6:4},(36:2}, 
16663} 


{0.31, 아 ,{2),00,(66),06},{ 한 


{61.82.0:2},{@:3},{6.212},{6.64}, 
{6663}, {64} 


<01.068 ㅠ 


2.3 기존 방 법 들의 문제점 


기 존 의 데이터 마이닝 알 고 리 즘 들은 기 본 적 으로 
다 음 과 같은 비 효 율 성 을 내 재 한다. 첫째 최 소 지지도 
가 변 경 되면 전체 718 를 다시 탐 사 해야 하기 때문 
에 많은 오 버 헤 드 를 필 요 로 한다. 즉 기 존 의 방 법 은 
빈 발 항목 생 성 단 계 에서 최 소 지지도 값 보다 작은 항 
목 집 합 들을 다음 단 계 에서 제 거 한 다. 그러나 만약 최 
소 지 지 도 의 값 이 이 전 에 설정된 값 보 다 작게 또는 
크게 변 경 되면 이전 탐 사 에서 게 외 되었던 항 목 들이 
탐 사 대 상 범 위 에 포 함 되거나 또는 빈 발 항 목 에 포함 
되었던 것들이 제 거 되어야 하기 때문에 최 소 지지도 
값 의 변 경 으로 인해서 처 음 부터 다시 탐 사 과 정 을 수 
행해야 한다. 이러한 오 버 헤 드 는 재 탐사 필 요 성 을 제 
거 함 으로써 제 거 할 수 있다. 

둘째, 새로운 트 랜 잭 션 의 추 가 에 의해 이 전 에 생성 
된 빈 발 항 목 을 재 활 용 하지 못하고, 다시 처 음 부터 생 
성 해야 한다. 왜냐하면, 빈 발 항 목 에서 제 외 되었던 항 
목 들이 새로 추 가 되는 트 랜 잭 션 에 의해서 최 소 지지 
도 값 보다 같 거나 클 수 있기 때 문 이 다. 따라서 한 단 
계 의 결 과 를 다음 단 계 에서 활 용 하는 기존 알고리즘 
에서는 전체 탐 사 과 정 을 반드시 다시 수 행 해 야 한다. 

셋째, 사 용 자 의 관 심 과 무 관 하게 데 이 터 베 이 스 내 
의 모든 항 목 을 대 상 으로 과 도 하게 생 성 되는 빈 발 항 
목 및 연 관 규 칙 으로 인해 관 심 이 있는 연 관 규 칙 을 
추 출 하는데 어 려 움 이 있다. 즉 데이터 마이닝 알 고 리 
즘 에서 항 목 들 간 의 연 관 규 칙 을 생 성 하기 위해서는 
트 랜 잭 션 내의 모든 항 목 들 을 대 상 으로 반 복 적 으로 
최 소 지 지 도 보다 큰 모든 빈 발 항 목 들을 생 성 하게 된 


다. 연 관 규 칙 은 이러한 빈 발 항 목 을 이 용 하 여 생 성 하 
기 때문에 매우 많은 연 관 규 칙 이 생 성 되고 이로 인해 
사 용 자 가 관 심 이 있는 연 관 규 칙 만을 추 출 하는 것이 
매우 어렵게 된다. 또한 탐 사 과 정 을 거쳐 생 성 된 빈 
발 항 목 들은 경 우 에 따 라 서 는 대 부 분 이 사 용 자 의 관 
심이 없는 것으로 구 성 될 수 있으며 이에 따라 과 도 하 
게 불필요한 연 관 규 칙 이 생 성 된다는 문 제 점 이 있다. 


3. 180 에 의한 새로운 빈 발 항목 생 성 방법 


3.1 기본 개념 


본 논 문 에서는 트랜잭션 내의 각 항 목 에 대하여 다 
른 항 목 과 의 직 ㆍ 간 접 적 인 관 련 성 을 파악한 후 최소 
지 지 도 의 값 을 이 용 하 여 빈 발 항 목 을 생 성 하는 5884- 
1#(6(86160076 2206600 14010108 45108 타 6200 트 30070 
(0280) 방 법 을 제 안 한 다 . 56821[-16 은 먼저 주어진 
항 목 집 합 에 대해 (를 구 성 하 고 단 계 적 으로 확장 
하 여 (- 항 목 집 합 에 대한 지 지 도 를 계 산 한 후, 최 소 지 
지 도 를 이 용 하 여 빈 발 항 목 을 생 성 한다. 이 때, 070 는 
항 목 간의 직접적인 관 련 성 을 나타내며, 관련 있는 
100 들 을 이 용 하 여 항 목 간의 간 접 적 인 관 련 성 을 추 
출 한 다. 


[정의 6] 떠 ( ㅎ (6600- 뮤 3000 (82014) 

18 는 다음 두 종 류 의 노 드 로 구성된 그 래 프 이 다. 

(01) 연 관 (3660013000) 노 드 : 탐사 대 상 이 되는 항목 
으로 806 의 중 앙 에 위 치 한 다. 

(0) 관 련 (7612660) 노 드 : 연 관 노 드 와 직 접 적 으 로 관 
련 이 되는 항 목 으로, 연 관 노 드 와 동일한 트 랜 잭 션 에 
존 재 하는 항 목 이다. 트랜잭션 내 에 서 연 관 노 드 와의 
위 치 에 따라 좌 - 노 드 (1606-6106 ㅁ 006, 트랜잭션 내에 
서 연 관 항 목 의 바로 이 전 에 위 치 하 는 항 목 ) 와 우 - 노 
드 (2 ㅁ 0+-9106 2006, 트랜잭션 내 에 서 연 관 항 목 의 바 
로 이 후 에 위 치 하 는 항 목 ) 로 분 류 한다. 


12 를 구 성 하 기 위해서는 먼저 각 트랜잭션 내의 
항 목 들을 알파벳 순 서 로 정 렬 시킨다. 그 이 유 는 탐사 
하고자 하는 연 관 노 드 에 따라 탐 사 대 상의 범 위 를 조 
절 하 기 위 함 이다. 

126 는 트랜잭션 내 에 서 연 관 노 드 와 관 련 노 드 의 
발 생 빈 도 에 따라 가 중 치 (\60160 31046 : 노 드 간 의 
경로 수 ) 를 할 당 한다. 가 중 치 는 연 관 노 드 와 관 련 노드 
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의 위 치 에 따라 관 련 - 연 관 노 드 가 중 치 (140-0608166 
78106) 와 연 관 - 관 련 노드 가 중 치 (04【-068166 31046) 
로 구 분 된다. 이 가 중 치 는 항 목 집 합 의 지 지 도 를 계산 
하는데 이 용 된 다. 


[ 예 ] < 표 3> 에 서 , 항목 는 5 개 의 트랜잭션 중에서 
4 개 의 트 랜 잭 션 에 존 재 하 며 , 의 전 ㆍ 후 항 목 을 이용 
하여 (를 구 성 하 면 그림 1 과 같다. 트랜잭션 번호 
10, 40 에 의해 관 련 - 연 관 노 드 (3-0) 가 중 치 는 2 가 되 
고, 10, 30, 40, 50 에 의해서 연 관 - 관 련 노 드 (6-0, 0-6@) 
가 중 치 는 각각 2 가 된다. 실 선 링 크 는 연 관 노 드 의 좌 
- 노 드가 존 재 함 을, 점선 링 크 는 좌 - 노 드가 존 재 하 지 
않 음 을 나타낸다. 좌 - 노 드 와 우 - 노 드 의 가 중 치 가 일 
치 하 지 않는 경 우 는 연 관 노 드 에 대하여 동일한 트랜 
잭 션 에 존 재 하 지 않는 항 목 이 존 재 함 을 나타낸다. 연 
관 노 드 0 는 트랜잭션 번호 10, 40 에 의해 관 련 - 연 관 
노 드 (0-0) 가 중 치 는 2 가 되고 연 관 - 관 련 노 드 (0-6, 
0-1) 가 중 치 는 각각 1 이 된다. 또한 좌 - 노 드 와 우 - 노 
드 의 가 중 치 가 일 치 하기 때문에 모든 항 목 은 동일한 
트랜잭션 내에 존 재 함 을 나타낸다. 연 관 노드 0 에 대 
한 12( 는 그림 2 와 같 으 며 , 전체 항 목 에 대한 41 는 
그림 3 과 같다. 

항 목 집 합 에 대한 지 지 도 는 트랜잭션 내 에 서 관심 
대 상 의 항 목 들이 동시에 존 재 하 는 개 수 를 의 미 한 다. 
즉 , 11008 에 서 연 관 노 드 에서 관 련 노 드 로 의 경 로 가 얼 
마나 존 재 하는 지를 의 미 한다. 크 기 가 1 인 항 목 에 대 
한 지 지 도 는 해당 182 에 서 직 접 적 으 로 구하는 반면 
크 기 가 2 이 상의 항 목 접 합 예 대한 지 지 도 는 노 드 의 
확장 186 를 이 용 하 여 간 접 적 으로 구할 수 있다. 


표 3. 표 1 의 7008 의 항목 정렬 


드 엔 젝 션 내의 항 목 들 


26 6%,6 구 


&0,6@ 


86 


그림 2. 0 의 18 


그림 1. 6 의 18 ㅇ 


내 05 
0 ~ 


그림 3. 전체 186 


1) 1- 항 목 집 합 의 지지도 계산 : 관 련 - 연 관 노 드 의 
가 중 치 의 합 과 연 관 - 관 련 노 드 의 가 중 치 의 합 중 큰 
값 (7080※×(5410 01 12-068166 72146, 5410 0 04[+-068166 
78106)) 을 지 지 도 로 설 정 한 다. 그림 1 의 경우 연관 
노드 에 대한 지 지 도 는 4 가 된다. 즉 , 관 련 - 연 관 노 드 
(3-0:2) 의 가 중 치 는 2 가 되고, 연 관 - 관 련 노 드 (6-0:2, 
6-@2) 의 가 중 치 는 4 가 된다, 따라서 6 의 지 지 도 는 
08※(2, 4)=4 가 된다. 

2) - 항 목 집 합의 지지도 계 산 >2) : 탐 사 하고자 
하는 항 목 집 합 을 ×1×2...% 라 할 때, 이 항 목 집 합의 
지 지 도 는 다 음 과 같이 반 복 적 으로 계 산 된다. %\1%2 의 
지 지 도 를 구한 후 ※2×3(×2=×1*%2) 의 지 지 도 를 구하고, 
나 , 20 재 2061=-2%-)) 의 지 지 도 를 구한다. 항목 쌍 
×811 의 지 지 도 를 구할 때 ×,/1 이 찌 의 10( 에 존 재 하 
는 경 우 ( 직 접 연 결 ) 와 ×/1 이 다른 노드 / 의 10(3 를 통 
해서 연 결 되는 경 우 ( 간 접 연 결 ) 가 존 재 한다. 직 접 연 
결의 경우 (에서 ×%,41 의 해당 가 중 치 와 바로 전에 
구한 ※;-1× 까 지의 지지도 중 적은 값 을 지 지 도 로 선 
택 한 다. 간 접 연 결 의 경 우 는 ※× 에 서 ×1 로 의 경 로 상 의 
모든 지 지 도 를 더한 값 을 =×11 의 지 지 도 로 선택한 
다. 그리고 최 종 적 으로 직 접 연 결 지 지 도 와 간 접 연 결 
지 지 도 의 합 을 더하여 (- 항 목 집 합의 지 지 도 로 선택 
한다. 


[ 예 ] 항 목 집합 '600『' 의 지지도 계산 : 의 12( 를 
이 용 하 여 관 련 노 드 [와 0 를 찾는다. 6 의 016 에 서 관 
련 노드 6 는 탐 사 항 목 0 보 다 크기 때문에 (3-6-6) 는 
탐 사 과 정 에 서 제 외 된 다. 관 련 노 드 는 탐 사 항목 < 와 
동 일 하 기 때문에 (3-0) 의 확장 [를 구 성 하 고 지지 
도 를 계 산 한 다 (3-0:2). 의 17( 를 이 용 하 여 관 련 노 
드 @ 를 찾는다. 6 는 탐 사 항 목 0 보 다 크기 때문에 제외 
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하고, 같은 방 법 으로 (3-0-0) 의 확장 40(6 를 구 성 하 
고 2010((3-0:2), (6-0:2)) 를 (3-0-0:2) 의 지 지 도 로 결 
정한다. 0 는 6 와 의 관 련 노 드 를 갖고 6 는 탐 사 항 목 
{보다 작기 때문에 (2-0-0-6@) 의 확장 86 를 구 성 하 
고 지 지 도 를 계 산 한 다. 즉 , 2410((3-0-0:2), (0-6@:1))= 
1. 그리고 6 는 탐 사 항 목 과 동일한 관 련 노 드 를 갖기 
때문에 (3-0-0-6-131) 의 확장 12 를 구 성 한 다. 또한 
0 의 다른 관 련 노 드 에 대해서 확장 7(* 를 구 성 한 다 
(3-0-0-『:1). 결 과 적 으로 '400『' 의 지 지 도 는 (2-0-0- 
6-1) + (8-6-0-1:1)=2 가 된다. 


그림 4. 300+ 의 확장 186 


4. 5 마 4-1 ㅁ 6 알 고 리 즘 의 표현 및 특징 


3 장 에서 설명한 6254[-1876 방 법 의 알고리즘 표현 
은 다 음 과 같다. 


[684- 때 6 방 법 의 알고리즘 표현] 
200060416 50234_18(6(6005 하 8){(//5=※1 네 2920 
1000 = 보지 < 47 1++)(// 뇌 와 %/1 의 지지도 계산 
× 의 관 련 노 드 ( 우 - 노 드 ) 를 60 =2) 라 하면 
10000 = 1 되 < 치 14) )7+) { 
0856 (08 시) // 치 와 31/1 의 간 접 연결 형태 
ㅁ 의 확장 106 구성; 
84000 = 의 가중치; 
1001760【-504000 다 00) 호출; 
6896 (2 = 11) // 치 와 ×/] 의 직 접 연결 형태 
지 와 ×※11 의 확장 1 구성; 
80000 = 피 와 ×1 의 가중치; 
} 
54000 다 = 50000 + 50000 
플 (6804000 파 < 1010-540) 
0410 바 비 - 빈 발 항목 
} 
} 
20006046 10011606-542000015){(//15 의 관 련 노 드 
// =8192...90 
100 06 = 나 5 < 11 타 +{ 
0856 (9 < 찌 +1) 
ㅠ 의 확장 06 구성; 
8400006 = 5【 의 가중치; 
3400054 ㅋ  7010(54000 타 6, 54000762: 


1001760【-54000 파 (50) 호출; 
0856 (96 = 10 

9; 의 확장 06 구성; 

90000 파 = 1010(604000706 50400004); 
0856 (의 > 지 40 

61  // 비 - 빈 발 항목 


표 1 의 7108 를 이 용 하 여 관심 있는 항목 3008 에 
대해 568\4-180 알 고 리 즘 을 수 행 하여 얻은 빈 발 항목 
의 결 과 는 다 음 과 같다. 


{3 : 3}, {6 : 40, 10 : 40, " : 자 

{&.6: 2}, {180 : 가, (6: 2, {60 : 2, 
{161 : 4), {107 : 2} 

{60 : 2}, {06 : 2),(4.0./ : 2), {607 : 아 
{3001 : 2} 


8054-176 기 법 은 사 용 자 의 관 심 대 상 이 되는 항 
목 에 대해서만 탐 사 를 수 행 하 기 때문에 항목 @' 에 
대해서는 탐 사 를 수 행 하지 않는다. 만 약 에 관 심 대 상 
이 '36006『 로 변 경 되 거나 최 소 지 지 도 가 변 경 되어도 
이전 탐사 결 과 를 활 용 하여 빠르게 탐사 결 과 를 얻을 
수 있다. 본 논 문 에 서 제안한 6814-106 방 법 은 기존 
방 법 들 과 비교할 때 다 음 과 같은 특 성 을 갖는다. 

첫째, 탐 사 하 고자 하는 항 목 과 그 와 관련된 항목 
에 대해서만 빈 발 항 목 을 생 성 하 기 때문에 사 용 자 의 
관 심 이 있는 연 관 규 칙 만을 생 성 할 수 있다. 따라서 
모든 빈 발 항 목 을 생 성 하고 그에 대한 모든 연 관 규칙 
을 생 성 하는 알 고 리 즘 에 비해 효 율 적 으로 관 심 이 있 
는 연 관 규 칙 만 을 추 출 할 수 있다. 또한 선택된 탐사 
항 목 에 따라 전체 탐 사 범 위 를 효과적으로 줄일 수 
있다. 즉 , 선택된 항 목 들 의 사 전 식 순 서 가 낮 을 수록 
탐 사 범 위 는 축 소 된다. 예 를 들면 항 목 집 합 1 = {3.6, 
… , 2} 에 대해 탐 사 하고자 하는 항 목 이 {3.6, 아 라면 
탐 사 과 정 에서 (466 .…… , 2} 의 항 목 들 에 대해서는 고 
려 할 필 요 가 없다. 

둘째, 새로운 트 랜 잭 션 이 추 가 되더라도 이 전 에 생 
성 된 탐 사 과 정 을 재 활 용 할 수 있기 때문에 전체 탐사 
과 정 을 처 음 부터 수 행 해 야 하는 기존 알 고 리 즘 의 오 
버 혜 드 를 획 기 적 으로 줄일 수 있다. 예 를 들면 표 2 의 
7108 에 서 '30[@' 와 '3006『' 가 추 가 되고, '0006[' 의 지지 
도 를 계 산 한 다면, '300"' 의 확장 70 에 새로운 트 랜 잭 
션 의 항 목 들을 추 가 해 서 지 지 도 를 계 산 하면 된다. 
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그림 5. 30006+ 의 확장 10 ㅁ ㅇ 6 


셋째, 최 소 지 지 도 의 값 이 변 경 되 더라도 단지 확장 
106 상 의 가 중 치 와 최 소 지 지 도 와 의 비 교 룰 통해서 
빈 발 항 목 을 재 계산할 수 있다. 기 존 의 알 고 리 즘 에서 
빈 발 항 목 올 구하는 방 식 은 작은 크 기 의 빈 발 항 목 올 
구하고 이를 기 반 으로 단 계 적 으로 큰 크 기 의 빈 발 항 
목 을 생 성 하 게 된다. 즉 , 한 단 계 에 서 최 소 지지도 보 
다 작은 항 목 집 합 들은 다음 단 계 에서 제 거 된다. 따라 
서 만약 최 소 지지도 값 이 이전 값 보다 작 게 되면 이전 
탐사 기 준 에서 제 외 되었던 항 목 집 합 들이 탐사 대상 
범 위 에 포 함 되어야 하기 때문에 처 음 부터 다시 탐사 
과 정 을 거쳐야 한다. 그러나 584-186 방 법 은 기존 
의 방 법 들 처럼 단 계 마다 생 성 된 항 목 집 합 을 최 소 지 
지 도 에 따라 빈 발 항 목 을 구 성 하는 것이 아니라 먼저 
탐 사 하고자 하는 항 목 간의 각 각 의 지 지 도 를 구한 후 
이를 더하여 최 소 지 지 도 와 비 교 하 기 때문에 최 소 지 
지도 값 의 변 경 에 따라 다시 탐 사 할 필 요 가 없다. 


5. 결론 및 향후 연 구 방향 


본 연 구 에서는 기 존 의 마이닝 기 법 에서 발 생 하는 
최 소 지 지도 값 의 변 경 에 의한 비 효 율 성 , 불필요한 연 
관 규 칙 의 생 성 으로 인한 불 편 성 , 이 전 에 생 성 된 빈발 
항 목 의 재 활 용 의 어 려 움 과 같은 문 제 점 을 해 결 하기 
위한 방 법 으 로 6884-(( 방 법 을 제 시 하였다. 

이 기 법 은 탐사 시 전 체 항 목 을 대 상 으로 하지 않 
고 관심 대 상 이 되는 항 목 에 대해서만 탐 사 를 수 행 한 
다. 즉 , 관 심 항 목 에 따라 탐사 범 위 가 좌 우 된 다. 따라 
서 불필요한 연 관 규 칙 의 생 성 을 줄일 수 있다. 또한 
기존 방 법 과 는 달리 비 - 빈 발 항 목 을 탐 사 과 정 에서 제 
거 하 지 않기 때문에 최 소 지 지 도 가 변 경 되거나 새로 
운 항 목 이 추가 또는 기 존 의 항 목 이 삭 제 되는 경 우 에 
도 이전 탐사 결 과 를 재 활 용 할 수 있다. 

그러나 탐 사 결 과 를 얻는데 있어서, 중 복 되 는 부분 
의 제 거 를 고 려 하 지 않았기 때문에 관 심 대 상의 항목 


들이 중 복 되어 나타나는 경 우 가 발 생 한 다. 따라서 
10560 빈 발 항 목 만을 생 성 하기 위한 방 법 을 앞으로 
고려해야 한다. 
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